概要とアーキテクチャの進化の地図
AlexNetの基盤的な成功から、極めて深い畳み込みニューラルネットワーク(CNN)という時代へと移行しました。この変化は、学習の安定性を保ちつつ極端な深さに対応するため、画期的なアーキテクチャの革新を必要としました。そこで、三つの代表的なアーキテクチャ——VGG、GoogLeNet(Inception)、およびResNet——それぞれがスケーリング問題の異なる側面をどのように解決したかを理解し、後半の授業で厳密なモデル解釈の土台を築きます。
1. 構造的単純性:VGG
VGGは、極めて均一かつ小さなカーネルサイズ(特に3×3畳み込みフィルタを積み重ねることで深度を最大化するというパラダイムを導入しました。計算コストは高いものの、構造の均一性が、最小限のアーキテクチャ変更によって達成される「純粋な深度」こそが性能向上の主因であることを証明し、小規模な受容場所の重要性を確立しました。
2. 計算効率:GoogLeNet(Inception)
GoogLeNetは、効率性とマルチスケール特徴抽出を優先することで、VGGの高コストを補いました。その中心的なイノベーションはInceptionモジュールであり、並列な畳み込み(1×1、3×3、5×5)とプーリングを実行します。特に重要なのは、1×1畳み込みをボトルネックとして用いることで、高コストな演算の前段階でパラメータ数と計算複雑性を劇的に削減しています。
キーな工学的課題
質問1
どのアーキテクチャが、主に3×3フィルタを使用して構造の均一性を強調し、深度を最大化しましたか?
質問2
1×1畳み込みは、Inceptionモジュールにおいて何の根本的な目的で使用されるのですか?
重大な課題:勾配消失
最適化のための工学的解決策
ResNetのアイデンティティマッピングが、重み初期化の改善やバッチ正規化などの手法を超えて、なぜ勾配消失問題を根本的に解決するのかを説明してください。
Q1
スキップ接続がバックプロパゲーション中の勾配の流れをどのように安定化するかを説明してください。
解答:
スキップ接続は出力にアイデンティティ項($+x$)を導入し、微分パスに加算項($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$)を生成します。この項により、勾配信号が後方に直接伝わる経路が確保され、残差関数 $F(x)$ による勾配がどれほど小さくなっても、上流の重みがゼロでない、有用な勾配信号を受け取ることを保証します。
スキップ接続は出力にアイデンティティ項($+x$)を導入し、微分パスに加算項($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$)を生成します。この項により、勾配信号が後方に直接伝わる経路が確保され、残差関数 $F(x)$ による勾配がどれほど小さくなっても、上流の重みがゼロでない、有用な勾配信号を受け取ることを保証します。